6.2 시각과 언어의 연결: 멀티모달 임베딩 (Multimodal Embeddings)